Projekt WAD
Analiza wyników Tour de France z lat 1952-2016
Wprowadzenie
| Rok | Średnie tempo(km/h) zwycięzcy | Łączny dystans(km) | Liczba etapów | Ukończyło wyścig | Liczba zgłoszeń | Narodowość zwycięzcy | Drużyna zwycięzcy | Miasto rozpoczęcia | Państwo rozpoczęcia |
|---|---|---|---|---|---|---|---|---|---|
| 1952 | 32.23 | 4898 | 23 | 78 | 122 | Italy | Italy | Brest | France |
| 1953 | 34.59 | 4476 | 22 | 76 | 119 | France | France | Strasbourg | France |
| 1954 | 33.23 | 4656 | 23 | 69 | 110 | France | France | Amsterdam | Netherlands |
| 1955 | 34.45 | 4495 | 22 | 69 | 130 | France | France | Le Havre | France |
| 1956 | 36.27 | 4498 | 22 | 88 | 120 | France | Nord-Est-Centre | Reims | France |
| 1957 | 34.52 | 4665 | 22 | 56 | 120 | France | France | Nantes | France |
Przedstawiony zbiór (patrz Table 1) zawiera podstawowe informacje dotyczące zawodów kolarskich Tour de France, organizowanych w latach 1952-2016. Tour de France to wieloetapowy wyścig kolarski organizowany najczęściej w lipcu, na terenie Francji oraz państw ościennych. Należy do cyklu World Tour [@tourde2022].
Prestiż tego wyścigu wiąże się z długą historią (jest to obecnie najstarszy wyścig kolarski), wielką tradycją oraz przede wszystkim skalą trudności. Szczególnie znanym momentem jest podjazd pod przełęcz L’Alpe d’Huez (patrz Figure 1) : długość podjazdu – 13,8 km; średnie nachylenie 7,9% (maksymalne 12%), przewyższenie – 1126 metrów.
Analiza zgromadzonych informacji
Podstawowe statystyki opisowe
| Zmienna | min | max | median | mean |
|---|---|---|---|---|
| Średnie tempo(km/h) zwycięzcy | 32.23 | 41.65 | 37.32 | 37.50 |
| Łączny dystans(km) | 3282.00 | 4898.00 | 3946.00 | 3,928.07 |
| Ukończyło wyścig | 53.00 | 174.00 | 117.00 | 114.81 |
| Liczba zgłoszeń | 100.00 | 210.00 | 170.00 | 160.94 |
Analizę danego tematu należy zacząć od przedstawienia podstawowych informacji o tym zbiorze, co już pozwala zauważyć pierwsze związki czy obserwacje (patrz Table 2). Przykładowo w kolumnach median (ang. mediana) i mean (ang. średnia arytmetyczna) widzimy jak niewielkie są odstępstwa miedzy tymi dwiema miarami.
Miasta początkowe wyścigu Tour de France
Państwo rozpoczęcia | Suma |
France | 47 |
Netherlands | 6 |
Belgium | 3 |
Germany | 3 |
Switzerland | 1 |
Luxembourg | 1 |
Spain | 1 |
Ireland | 1 |
United Kingdom | 2 |
Jak widać na wykresie (patrz Table 3) nie można zakładać, że wyścig zawsze rozpoczyna się w Francji. Jeszcze lepiej widać to na poniższej mapie (patrz Figure 2). Pokazuje to jak zróżnicowane geograficznie są omawiane rozgrywki.
Kto jeździł najlepiej?
Na powyższe pytanie pomaga odpowiedzieć tabela niżej (patrz Table 4). Dzięki niej obserwujemy, że to Irlandczycy (!) średnio przejechali najwięcej, natomiast największe prędkości “kręcili” Brytyjczycy.
Wyniki | ||
Narodowość zwycięzcy | Średni dystans | Średnia prędkość |
Italy | 4,156.40 | 37.20 |
France | 4,214.30 | 35.94 |
Luxembourg | 3,980.45 | 38.26 |
Spain | 3,769.34 | 38.57 |
Netherlands | 4,219.00 | 34.35 |
Belgium | 3,989.83 | 35.73 |
USA | 3,624.00 | 37.59 |
Ireland Irish | 4,231.00 | 36.65 |
Denmark | 3,907.00 | 39.23 |
Germany | 3,950.00 | 39.23 |
USA | 3,500.30 | 40.42 |
Australia | 3,430.00 | 39.79 |
United Kingdom | 3,448.68 | 39.92 |
Osiągi zwycięskich narodowości | ||
Rozkład średniego dystansu do średniej prędkości wizualizuje wykres Figure 3.
Amerykanin dzięki środkom wydolnościowym jechał średnio najszybciej w toku całego turnieju w omawianych latach.
Stosunek zapisanych do tych którzy ukończyli konkurs
W kolumnie Procent poniższego wykresu wyrażony jest procentowy stosunek zmiennej Liczba zgłoszeń do Ukończyło wyścig w danych latach. Z tabeli (patrz Table 5) nie zauważamy szczególnej korelacji między latami a omawianą zależnością.
Rok | Procent |
(2010,2016] | 84 |
(2003,2010] | 80 |
(1984,1990] | 72 |
(1997,2003] | 72 |
(1965,1971] | 70 |
(1978,1984] | 70 |
(1990,1997] | 69 |
(1971,1978] | 66 |
(1952,1958] | 61 |
(1958,1965] | 59 |
Liczba etapów a łączny dystans
Poniższy wykres wizualizuje stosunek zmiennej Liczba etapów do zmiennej Łączny dystans(km) w podziale na państwa, w których omawiany wyścig rozpoczął się przynajmniej dwa razy. Z grafiki odczytujemy ewidentną zależność - im więcej etapów tym dłuższy jest wyścig.
Dobór oraz analiza modelu regresji liniowej
Model na postawie korelacji
Na podstawie poznanych metod i wskaźników miar dopasowania postaramy się wybrać najlepszy model regresji. Rozpoczynamy od doboru zmiennych objaśniających na podstawie wartości korelacji liniowej.
Sugerując się wykresem korelacji odrzucamy z modelu zmienne: Waga oraz Wzrost. Budujemy model postaci:
Średnie tempo(km/h) zwycięzcy ~ Łączny dystans(km) + Liczba etapów + Ukończyło wyścig + Liczba zgłoszeń + Wiek
Przeprowadzamy test ANOVA, aby porównać czy zbudowany powyżej model będzie lepszy od modelu pełnego (każda potencjalna zmienna jest zmienną objaśniającą).
Analysis of Variance Table
Model 1: `Średnie tempo(km/h) zwycięzcy ` ~ `Łączny dystans(km) ` +
`Liczba etapów ` + `Ukończyło wyścig ` + `Liczba zgłoszeń ` +
Waga + Wzrost + Wiek
Model 2: `Średnie tempo(km/h) zwycięzcy ` ~ `Łączny dystans(km) ` +
`Liczba etapów ` + `Ukończyło wyścig ` + `Liczba zgłoszeń ` +
Wiek
Res.Df RSS Df Sum of Sq F Pr(>F)
1 57 71.720
2 59 78.049 -2 -6.3285 2.5148 0.08982 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Według przeprowadzonego testu ANOVA lepszy jest model z mniejszą liczbą zmiennych.
Model zbudowany metodą regresji krokowej (wg. indeksu AIC)
Tworzymy konkurencyjne modele zbudowane z użyciem regresji krokowej tworzonej za pomocą funkcji step(). W celu wybrania najbardziej optymalnego modelu sugerować się będziemy indeksem AIC.
Rozpoczynamy od budowy modelu metodą forward, przechodząc od modelu pustego (zawierającego jedynie wyraz wolny) dodając do niego potencjalne zmienne. Otrzymany model: Średnie tempo(km/h) zwycięzcy ~ Wiek + Łączny dystans(km) + Liczba zgłoszeń + Waga + Wzrost, dla którego otrzymany indeks AIC wynosi 18.62.
Następnie sprawdzamy, czy model budowany metodą backward, czyli idąc od modelu pełnego odrzucamy zmienne, które zawyżają wartość indeksu AIC. Otrzymujemy dokładnie taki sam model jak zbudowany powyżej, z dokładnie takim samym indeksem AIC.
Ostatecznie budujemy model, gdzie zmienne objaśniające są zarówno dodawane jak i odrzucane z modelu. Podobnie jak w poprzedniej sytuacji, dostajemy dentyczną podstać modelu.
Wybór ostatecznego modelu
O tym który model będzie ostatecznym modelem regresji, decydować będą wartości miar poasowania danych empirycznych do teoretycznych dla każdego z danych modli.
| Model_Nasz | Model_Wprzod | |
|---|---|---|
| MAE | 0.89 | 0.86 |
| MSE | 1.20 | 1.11 |
| RMSE | 1.10 | 1.05 |
| R^2 | 0.77 | 0.79 |
| AIC | 210.35 | 205.09 |
| BIC | 225.57 | 220.31 |
| PRESS | 78.05 | 71.97 |
Na podstawie miar i kryteriów dopasowania danych empirycznych do teoretycznych wybieramy model zbudowany metodą regresji krokowej.
Analiza modelu
Liniowość
Sprawdzamy, czy istnieje liniowa zależność między zmiennymi objaśniającymi (X) a zmienną objaśnianą (Y).
Powyższy wykres zależności wartości dopasowanych do reszt sugeruje brak liniowości analizowanego modelu.
| P_value | |
|---|---|
| Test Reset | 0.3990948 |
| Test Rainbow | 0.0882449 |
| Test Harvey'a-Collier'a | 0.1667162 |
Ostatecznie jednak, w oparciu o powyższą tabelę (Table 6) odrzucamy początkowe wnioski wynikające z analizy wykresu wartości dopasowanych do reszt. Warunek liniowości jest spełniony.
Homoskedastyczność
W oparciu o poniższy wykres pierwiastka ze standaryzowanych reszt względem wartości dopasowanych, zwracając uwagę na czerwono linię, możemy wnioskować o złamaniu warunku jednorodności reszt modelu. Tezę tę poprzemy (bądź obalimy) przeprowadzając test statystyczny Breutsch’a-Pagan’a.
Otrzymane poniżej p-value nie daje nam jednak powodów do odrzucenia hipotezy od jednorodności reszt modelu. Warunek homoskedastyczności nie został złamany.
BP
0.06
Normalność reszt modelu
Powyższy histogram ilustruje rozkład reszt analizowanego modelu. Wnioskując z jego postaci, możemy mieć powody do wnioskowania o normalności rozkładu szumów modelu.
Poniższy test Shapiro-Wilk’a potwierdza naszą tezę - reszty zadanego modelu mają rozkład normalny.
[1] 0.87